Học máy là gì? Các công bố khoa học về Học máy

Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thi...

Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thiện hiệu suất từ kinh nghiệm mà không cần được lập trình cụ thể. Phương pháp này dựa trên việc xây dựng các mô hình dự đoán từ một tập dữ liệu huấn luyện và sử dụng các thuật toán để tìm ra các quy tắc, mô hình hoặc hàm số từ dữ liệu đó. Học máy có thể được áp dụng trong nhiều lĩnh vực như điều khiển tự động, nhận dạng hình ảnh, dịch thuật tự động, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác.
Học máy (Machine Learning) được chia thành ba loại chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning) và học bán giám sát (semi-supervised learning).

1. Học có giám sát: Trong học có giám sát, mô hình học từ dữ liệu được gán nhãn trước đó. Ví dụ, nếu chúng ta muốn xây dựng một mô hình để dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí, chúng ta sẽ cung cấp cho mô hình một tập dữ liệu gồm các ví dụ với diện tích, số phòng ngủ, vị trí và giá nhà tương ứng. Mô hình sẽ học từ các ví dụ này và sau đó có thể dự đoán giá nhà cho các ví dụ mới không có nhãn.

2. Học không giám sát: Trong học không giám sát, mô hình học từ dữ liệu không có nhãn hoặc không có thông tin về kết quả mong muốn. Mục tiêu là khám phá cấu trúc, mẫu hay nhóm từ dữ liệu. Ví dụ, một thuật toán gom cụm (clustering algorithm) sẽ phân loại các điểm dữ liệu vào các nhóm dựa trên sự tương đồng của chúng.

3. Học bán giám sát: Trong học bán giám sát, dữ liệu được gán nhãn chỉ cho một phần nhỏ, trong khi phần còn lại là không có nhãn. Mô hình học từ cả các ví dụ có nhãn lẫn không nhãn để tìm hiểu mối quan hệ giữa dữ liệu và nhãn và sau đó sử dụng thông tin đó để dự đoán các nhãn cho các ví dụ không có nhãn.

Các phương pháp học máy phổ biến bao gồm cây quyết định (decision tree), mạng thần kinh nhân tạo (artificial neural networks), máy vector hỗ trợ (support vector machines), học tăng cường (reinforcement learning) và rất nhiều phương pháp khác. Quá trình học bao gồm việc chọn và xử lý dữ liệu, lựa chọn thuật toán học máy phù hợp, huấn luyện mô hình, và đánh giá và tinh chỉnh mô hình để đạt hiệu suất tốt nhất. Học máy đóng vai trò quan trọng trong việc phân tích dữ liệu, dự báo, nhận dạng, và tự động hóa quy trình trong nhiều lĩnh vực khác nhau.

Danh sách công bố khoa học về chủ đề "học máy":

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold Dịch bởi AI
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắt

Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.

#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Học máy: Xu hướng, góc nhìn, và triển vọng Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 349 Số 6245 - Trang 255-260 - 2015

Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.

#Học máy #trí tuệ nhân tạo #khoa học dữ liệu #thuật toán #dữ liệu trực tuyến #tính toán chi phí thấp #ra quyết định dựa trên bằng chứng #chăm sóc sức khỏe #sản xuất #giáo dục #mô hình tài chính #cảnh sát #tiếp thị.
Học Máy Trong Y Học Dịch bởi AI
Ovid Technologies (Wolters Kluwer Health) - Tập 132 Số 20 - Trang 1920-1930 - 2015

Nhờ vào những tiến bộ trong công suất xử lý, bộ nhớ, lưu trữ và kho dữ liệu chưa từng có, máy tính đang được yêu cầu giải quyết những nhiệm vụ học tập ngày càng phức tạp, thường đạt được thành công bất ngờ. Máy tính giờ đây đã thành thạo một biến thể phổ biến của trò chơi poker, học các luật vật lý từ dữ liệu thực nghiệm, và trở thành chuyên gia trong các trò chơi điện tử - những nhiệm vụ mà không lâu trước đây được coi là không thể thực hiện. Song song với đó, số lượng các công ty tập trung vào việc áp dụng phân tích dữ liệu phức tạp vào các ngành công nghiệp đa dạng đã bùng nổ, do đó không có gì đáng ngạc nhiên khi một số công ty phân tích đang chuyển sự chú ý đến các vấn đề trong lĩnh vực chăm sóc sức khỏe. Mục đích của bài đánh giá này là khám phá những vấn đề trong y học có thể được hưởng lợi từ các phương pháp học tập như vậy và sử dụng các ví dụ từ tài liệu để giới thiệu những khái niệm cơ bản trong học máy. Điều quan trọng là lưu ý rằng các tập dữ liệu y tế có vẻ đủ lớn và các thuật toán học tập thích hợp đã có sẵn trong nhiều thập kỷ, và mặc dù có hàng ngàn tài liệu áp dụng các thuật toán học máy vào dữ liệu y tế, rất ít trong số đó đã góp phần đáng kể vào việc chăm sóc lâm sàng. Sự thiếu tác động này nổi bật đối lập với sự liên quan khổng lồ của học máy đối với nhiều ngành công nghiệp khác. Do đó, một phần nỗ lực của tôi sẽ là xác định những trở ngại nào có thể tồn tại trong việc thay đổi thực hành y học thông qua các phương pháp học thống kê và thảo luận về cách thức vượt qua những trở ngại này.

#học máy #sức khỏe #phân tích dữ liệu #thuật toán #chăm sóc lâm sàng
Ma trận cơ bản: Lý thuyết, thuật toán và phân tích độ ổn định Dịch bởi AI
Springer Science and Business Media LLC - Tập 17 - Trang 43-75 - 1996
Trong bài báo này, chúng tôi phân tích chi tiết hình học của một cặp camera, tức là một thiết lập stereo. Trái ngược với những gì đã được thực hiện trong quá khứ và vẫn đang được sử dụng hiện nay, chẳng hạn như trong phân tích stereo hoặc chuyển động, chúng tôi không giả định rằng các tham số nội tại của các camera là đã biết (tọa độ của các điểm chính, tỷ lệ pixel và tiêu cự). Điều này quan trọng vì hai lý do. Thứ nhất, nó thực tế hơn trong các ứng dụng mà các tham số này có thể thay đổi tùy theo nhiệm vụ (thị giác chủ động). Thứ hai, trường hợp tổng quát mà chúng tôi xem xét ở đây, nắm bắt tất cả thông tin liên quan cần thiết để thiết lập sự tương ứng giữa hai cặp hình ảnh. Thông tin này về cơ bản là về chiếu và được ẩn giấu một cách gây nhầm lẫn trong định dạng thường được sử dụng của ma trận Essential được giới thiệu bởi Longuet-Higgins (1981). Bài báo này làm rõ bản chất về chiếu của vấn đề tương ứng trong stereo và cho thấy rằng hình học epipolar có thể được tóm tắt trong một ma trận 3×3 có hạng 2 mà chúng tôi đề xuất gọi là ma trận cơ bản. Sau phân tích lý thuyết này, chúng tôi bắt đầu nhiệm vụ ước lượng ma trận cơ bản từ các sự tương ứng điểm, một nhiệm vụ có tầm quan trọng thực tiễn. Chúng tôi phân tích lý thuyết và so sánh thực nghiệm sử dụng dữ liệu tổng hợp và thực tế, nhiều phương pháp ước lượng khác nhau. Vấn đề về độ ổn định của việc ước lượng được nghiên cứu từ hai góc độ bổ sung. Đầu tiên, chúng tôi chỉ ra rằng có một mối quan hệ thú vị giữa ma trận cơ bản và các mặt phẳng ba chiều gây ra các homography giữa các hình ảnh và tạo ra sự không ổn định trong các quy trình ước lượng. Thứ hai, chúng tôi chỉ ra một mối quan hệ sâu sắc giữa sự không ổn định của quy trình ước lượng và sự hiện diện trong cảnh các bề mặt gọi là bề mặt quan trọng đã được nghiên cứu trong bối cảnh phân tích chuyển động. Cuối cùng, chúng tôi kết luận bằng việc nhấn mạnh rằng chúng tôi tin rằng ma trận cơ bản sẽ đóng một vai trò quan trọng trong các ứng dụng tương lai của Thị giác máy tính ba chiều bằng cách tăng cường tính linh hoạt, độ ổn định và do đó khả năng áp dụng vào các vấn đề thực tế khó khăn.
#ma trận cơ bản #hình học stereo #ước lượng #thị giác máy tính ba chiều #ổn định
Hệ thống máy bay không người lái trong cảm biến từ xa và nghiên cứu khoa học: Phân loại và những điều cần cân nhắc khi sử dụng Dịch bởi AI
Remote Sensing - Tập 4 Số 6 - Trang 1671-1692

Các hệ thống máy bay không người lái (UAS) đã phát triển nhanh chóng trong thập kỷ qua, chủ yếu nhờ vào các ứng dụng quân sự, và đã bắt đầu có chỗ đứng trong số các người dùng dân sự cho mục đích trinh sát cảm biến trái đất và thu thập dữ liệu khoa học. Trong số các UAS, những đặc điểm hứa hẹn bao gồm thời gian bay dài, độ an toàn trong nhiệm vụ được cải thiện, khả năng lặp lại chuyến bay nhờ vào việc nâng cấp hệ thống lái tự động, và giảm chi phí vận hành so với máy bay có người lái. Tuy nhiên, những lợi thế tiềm năng của một nền tảng không người lái phụ thuộc vào nhiều yếu tố, chẳng hạn như loại máy bay, loại cảm biến, mục tiêu của nhiệm vụ, và các yêu cầu quy định hiện hành dành cho hoạt động của nền tảng cụ thể. Các quy định liên quan đến việc vận hành UAS vẫn đang trong giai đoạn phát triển ban đầu và hiện tại tạo ra rào cản đáng kể cho người dùng khoa học. Trong bài viết này, chúng tôi mô tả nhiều loại nền tảng, cũng như khả năng của các cảm biến, và xác định những lợi thế của mỗi nền tảng liên quan đến các yêu cầu của người dùng trong lĩnh vực nghiên cứu khoa học. Chúng tôi cũng sẽ thảo luận ngắn gọn về tình trạng hiện tại của các quy định ảnh hưởng đến hoạt động của UAS, với mục đích thông báo cho cộng đồng khoa học về công nghệ đang phát triển này, mà tiềm năng cách mạng hóa quan sát khoa học tự nhiên tương tự như những biến đổi mà GIS và GPS đã mang lại cho cộng đồng hai thập kỷ trước.

#Hệ thống máy bay không người lái #cảm biến từ xa #nghiên cứu khoa học #quy định UAS #công nghệ khoa học.
Các cuộc tấn công đối kháng vào máy học y tế Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 363 Số 6433 - Trang 1287-1289 - 2019

Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới

#tấn công đối kháng #máy học y tế #lỗ hổng #bảo mật #trí tuệ nhân tạo
Evidence that specific T lymphocytes may participate in the elimination of chronic myelogenous leukemia
Nature Medicine - Tập 6 Số 9 - Trang 1018-1023 - 2000
Kỹ Thuật Xử Lý Ô Nhiễm Kim Loại Nặng Từ Đất: Tích Tụ Tự Nhiên So Với Chiết Xuất Cải Tiến Hóa Học Dịch bởi AI
Journal of Environmental Quality - Tập 30 Số 6 - Trang 1919-1926 - 2001
TÓM TẮT

Một thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là Thlaspi caerulescens J. Presl & C. Presl so với chiết xuất cải tiến hóa học sử dụng ngô (Zea mays L.) được xử lý bằng axit ethylenediaminetetraacetic acid (EDTA). Nghiên cứu sử dụng đất bị ô nhiễm công nghiệp và đất nông nghiệp bị ô nhiễm kim loại từ bùn thải. Ba vụ mùa của T. caerulescens trồng trong vòng 391 ngày đã loại bỏ hơn 8 mg kg−1 Cd và 200 mg kg−1 Zn từ đất bị ô nhiễm công nghiệp, tương đương 43% và 7% các kim loại trong đất. Ngược lại, nồng độ Cu cao trong đất nông nghiệp đã làm giảm nghiêm trọng sự phát triển của T. caerulescens, do đó hạn chế tiềm năng chiết xuất của nó. Quá trình xử lý bằng EDTA đã tăng đáng kể tính hòa tan của kim loại nặng trong cả hai loại đất, nhưng không dẫn đến tăng lớn hàm lượng kim loại trong chồi ngô. Chiết xuất Cd và Zn bằng ngô + EDTA nhỏ hơn nhiều so với T. caerulescens từ đất bị ô nhiễm công nghiệp, và nhỏ hơn (Cd) hoặc tương tự (Zn) so với đất nông nghiệp. Sau khi xử lý bằng EDTA, kim loại nặng hòa tan trong nước lỗ chân lông của đất chủ yếu tồn tại dưới dạng phức hợp EDTA-kim loại, duy trì trong vài tuần. Hàm lượng cao của kim loại nặng trong nước lỗ chân lông sau quá trình xử lý EDTA có thể gây nguy cơ môi trường dưới dạng ô nhiễm nước ngầm.

#Xử lý ô nhiễm #tích tụ tự nhiên #chiết xuất hóa học #kim loại nặng #<i>Thlaspi caerulescens</i> #<i>Zea mays</i> #EDTA #ô nhiễm nước ngầm #sự bền vững môi trường
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất Dịch bởi AI
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021

Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.

#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
All Patients with Acute Nonlymphocytic Leukemia May Have a Chromosomal Defect
New England Journal of Medicine - Tập 305 Số 3 - Trang 135-139 - 1981
Tổng số: 715   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10